恒源云(Gpushare) |
您所在的位置:网站首页 › cvpr 2022结果 › 恒源云(Gpushare) |
文章来源 | 恒源云社区 原文地址 | 用于视频的可变形Transformer 原文作者 | 咚咚 hi,大家好啊!窗外的树🌲 绿了,楼下的桃花开了,春天,就这么滴的过去了…… 小编已经居家办公(不能下楼)3个礼拜啦!敬请期待疯掉的小编~ 我的春游彻底没希望了!!! 说那么多有啥用呢?还不是得乖乖搬运社区文章!毕竟社区伙伴们发帖是那么的勤快!Respect! 正文开始 摘要 引入主题:在视频分类领域,视频Transformer最近作为一种有效的卷积网络替代品出现。 现存问题:大多数以前的视频Transformer采用全局时空注意或利用手动定义的策略来比较帧内和帧间的patch。这些固定注意力方案不仅计算成本高,而且通过比较预定位置的patch,忽略了视频中的运动动力学。 解决方案:该论文介绍了可变形视频Transformer(DVT),它根据运动信息动态预测每个查询位置的一小部分视频Patch,从而允许模型根据帧间的对应关系来决定在视频中查看的位置。关键的是,这些基于运动的对应关系是从以压缩格式存储的视频信息中以零成本获得的。 实验结果:在四个大型视频基准(Kinetics-400、Something-Something-V2、EPIC-KITCHENS和Diving-48)上的实验表明,该论文模型在相同或更低的计算成本下实现了更高的精度,并在这四个数据集上获得了最优结果。视频数据的输入大小一般可以表示为 因为使用的是Transformer架构,所以首先需要将输入数据转换为一个 最终得到 然后通过多头自注意力,layer norm(LN)和MLP计算,可以表示如下: 其中具体的自注意力可以表示如下(使用单头进行简化说明) 根据以往的视频Transformer算法,自注意力机制可以分为Global space-time attention和Divided space-time attention Global space-time attention 简单来说就是将时空联合起来进行注意力计算,公式如下: 其中注意力权重计算公式如下: 整个计算过程的计算复杂度为 Divided space-time attention 顾名思义,就是将时间和空间的注意力进行分开计算,用来减少计算量 空间注意力计算公式如下: 计算复杂度为 主要分为以下三个部分(创新点) Deformable Space-time Attention(D-ST-A) 这个注意力机制和上文Divided space-time attention中的时间注意力机制很相似,但是有两个主要不同点: 对于每个查询该注意力机制的数学表达式如下: 其中每一帧上的N个空间位置是如何计算的呢? ——是根据查询点特征和运动嵌入特征经过投影生成的相对偏置计算的,公式如下: 其中运动嵌入 其中的相似度矩阵 Deformable Multi-Scale Attention (D-MS-A) 上述D-ST-A是一个时间上的注意力机制,而D-MS-A是一个空间上的注意力机制,用于编码同一帧上的注意力。 但对于每一帧图像,这里引入了多尺度注意力——计算F个不同分辨率下的空间信息,不同分辨率图像中采样 其中不同分辨率图像中的patch采样也是通过根据其中对应查询点特征计算偏置得到的,计算公式如下: Attention Fusion 可以仅使用可变形时空注意(D-ST-A)、仅使用可变形多尺度注意(D-MS-A)以及两者的组合(D-ST+MS-A)。 在最后一种情况下,将由这两种注意策略独立计算出的两个token 论文给出了两种形式的注意力融合方式,一种基于简单的线性投影,另一种基于MLP-Mixer模型。 实验在四个标准视频分类基准上评估DVT:Kinetics-400(K400)、Something-Something-V2(SSv2)、EPIC-KITCHENS-100(EK100)和Diving-48(D48) 消融实验Choice of motion cues |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |